The Rakuda Ranking of Japanese AI
https://yuzuai.jp/benchmarkRakuda
Rakudaは、日本語のトピックに関する日本語の自由形式の質問にどれだけうまく答えられたかに基づいた、日本語の大規模言語モデルのランキングです。
簡単に説明すると、ランキングのAIアシスタントに40の自由形式の質問(rakuda-questions)に答えてもらう。そして、GPT-4にこれらの答えのペアを見せ、どちらのモデルがより良い答えを出したかを選択させる。GPT-4の選好に基づき、ベイズ法で各モデルの根本的なBradley-Terryの強さを推定する。Bradley-Terryの強さは、Eloスコアの最適版です。
https://gyazo.com/6da82777642ee3d3829aa6c34b7b9189
table:2023/7/14
0 GPT-4
1 GPT-3.5
2 RWKV-4 World-jp55
3 スーパーとりんさま
4 japanese-gpt-neox-3.6b-instruction-ppo
5 stormy-7b-10ep
6 japanese-gpt-neox-3.6b-instruction-sft-v2
7 OpenCALM-7B
8 japanese-gpt-neox-3.6b
LLMベンチマーク
日本語LLM